FILTER MODE ACTIVE

#обучение с подкреплением

Найдено записей: 91

#обучение с подкреплением11.01.2026

Презентация SETA: Открытые RL-окружения для терминальных агентов

Изучите SETA, набор инструментов с 400 RL задачами, ориентированными на терминальных агентов.

#обучение с подкреплением25.11.2025

xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%

xRouter от Salesforce использует RL с success-gated, cost-shaped вознаграждением, чтобы маршрутизировать запросы между десятками LLM и существенно снижать затраты на оффлоадинг

#обучение с подкреплением

Презентация SETA: Открытые RL-окружения для терминальных агентов

xRouter: RL-маршрутизатор, сокращающий стоимость вызовов LLM до 80%

Grok 4.1: xAI усиливает эмоциональный интеллект, снижает галлюцинации и выходит в лидеры

Gelato-30B-A3B: новый эталон для GUI-grounding, опережающий GTA1-32B

Обучение model-native агента: внутреннее планирование, память и использование нескольких инструментов через end-to-end RL

SkyRL tx v0.1.0: локальный Tinker-совместимый движок RL для GPU-кластеров

DeepAgent: единый поток мышления, поиск инструментов и выполнение действий

Agent Lightning: обучите любого AI-агента с помощью RL на основе реальных трассировок

Обучение и сравнение RL-агентов для трейдинга с Stable-Baselines3: практическое руководство

UltraCUA: гибридная модель для агентов, сочетающая клики с программными вызовами

Weak-for-Strong: как 7B мета-агент научился оркестровать мощные LLM

Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT

Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

ComputerRL: гибридная API-GUI платформа Zhipu AI для автономных агентoв рабочего стола

ToolTrain: RL-фреймворк от ByteDance, обучающий LLM эффективно искать в репозиториях

Алгоритмы, которые сговариваются: как самообучающиеся инструменты ценообразования меняют антимонопольное право

Graph-R1: агентная гиперграфовая RAG для многошагового вывода с обучением с подкреплением

ByteDance представляет Seed-Prover: прорыв в автоматическом доказательстве математических теорем

NVIDIA ThinkAct: революция в управлении роботами через визуально-языковое планирование

MiroMind-M1: Новый уровень открытого математического интеллекта с многоэтапным обучением с подкреплением

Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

Alibaba запускает Qwen3-MT: революционный мультиязычный перевод на основе обучения с подкреплением

Master-RM: укрепление доверия к LLM-моделям награды против поверхностных уязвимостей

MemAgent: Революция в обработке длинных контекстов в LLM с помощью обучения с подкреплением

GLM-4.1V-Thinking: Новый уровень мультизадачного понимания и рассуждений

Mirage: Визуальное мышление в моделях Vision-Language без генерации изображений

Apple представляет DiffuCoder: 7-миллиардная диффузионная модель для генерации кода

MMSearch-R1: Революция в мультимодальном поиске в LMM с помощью обучения с подкреплением

Как мировые модели помогают воплощённому ИИ воспринимать и действовать как человек

GTA1 от Salesforce устанавливает новый стандарт GUI-агентов, превосходя OpenAI CUA

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

AbstRaL: Повышение устойчивости LLM через абстрактное мышление и обучение с подкреплением

ASTRO улучшает способность Llama 3 к рассуждению более чем на 16% с помощью посттренировки

Crome: Каузальная система Google DeepMind для надёжного обучения моделей вознаграждения в выравнивании LLM

Together AI представила DeepSWE: открытый RL-обученный агент для кодирования с рекордными результатами на SWEBench

ReasonFlux-PRM: Революция в оценке цепочек рассуждений больших языковых моделей

OMEGA: Новый бенчмарк для оценки творческих возможностей ИИ в математических рассуждениях

LongWriter-Zero: Революция в генерации ультра-длинных текстов с помощью обучения с подкреплением без синтетических данных

DSRL: Управление роботами через обучение с подкреплением в латентном пространстве для реальной адаптации

Tencent выпускает Hunyuan-A13B: эффективная MoE-модель с 13 млрд активных параметров, двойным режимом мышления и поддержкой 256K контекста

Unbabel представляет TOWER+: революционная многоязычная модель для точного перевода и выполнения инструкций

Polaris-4B и Polaris-7B: масштабируемое обучение с подкреплением для продвинутого математического и логического рассуждения

GURU: Продвинутое обучение с подкреплением для многоцелевого рассуждения в шести областях

MEM1: революция в экономии памяти для языковых агентов с долгосрочной памятью

ByteDance представляет ProtoReasoning: улучшение обобщения LLM с помощью логических прототипов

Reinforcement-Learned Teachers от Sakana AI: Революция в эффективном обучении рассуждению LLM

PoE-World: Модульные символические модели превосходят RL-базисы в Montezuma’s Revenge с минимальными данными

MiniMax AI Представляет MiniMax-M1: Гибридная Модель на 456 Млрд Параметров для Длинных Контекстов и Обучения с Подкреплением

ReVisual-R1: Новый этап в мультимодальном рассуждении с открытой моделью на 7 миллиардов параметров

DeepCoder-14B: Открытая AI-модель, меняющая подход к генерации кода

CURE: Революция в генерации кода и юнит-тестов с помощью самообучающегося обучения с подкреплением в LLM

Meta представляет LlamaRL: масштабируемый фреймворк RL на PyTorch для эффективного обучения больших языковых моделей

Закладывая доверие как основу будущего ИИ

NVIDIA представила ProRL: длительное обучение с подкреплением улучшает рассуждения и обобщение в ИИ

Лаборатория Shanghai AI Предлагает Энтропийные Законы Масштабирования для Решения Проблемы Коллапса Исследования в RL для LLM

MiMo-VL-7B: Продвинутая модель для визуального восприятия и мультимодального анализа

Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Набор инструментов Enigmata революционизирует решение головоломок в больших языковых моделях с помощью продвинутого обучения с подкреплением

Внутри Invisible Technologies: CEO Мэтью Фитцпатрик о ИИ, сотрудничестве с людьми и масштабировании автоматизации

Apple и исследователи из Duke представили метод обучения с подкреплением для промежуточных ответов LLM, повышая скорость и точность

MMaDA: Прорывная унифицированная мульти-модальная диффузионная модель для работы с текстом и изображениями

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

NVIDIA Представляет Llama Nemotron Nano 4B: Компактная и Высокопроизводительная Модель ИИ для Edge и Научных Задач

GRIT: Метод обучения мультимодальных моделей логическому мышлению с изображениями и текстом

Обучение с подкреплением помогает LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода

Улучшение логики больших языковых моделей через структурированное мышление без непредсказуемых «ага» моментов

RXTX: Машинное обучение ускоряет алгоритм для структурного умножения матриц

NVIDIA представляет Cosmos-Reason1: революция в физическом здравом смысле и воплощённом рассуждении AI

Почему AI-чатботы часто льстят пользователям?

Исследование Anthropic выявляет недостатки объяснений Chain-of-Thought в ИИ

DanceGRPO: Революция в визуальной генерации с объединённым обучением с подкреплением

Joey Conway из NVIDIA раскрывает инновации в открытых ИИ-моделях Llama Nemotron Ultra и Parakeet

Использование токсичных данных в предобучении LLM для улучшения детоксикации и управления

Nemotron-Tool-N1: революция в использовании инструментов LLM через обучение с подкреплением и минимальное сопровождение

RLV: Улучшение рассуждений языковых моделей с помощью интегрированной проверки без использования value-функции

Microsoft представила ARTIST: RL-фреймворк для LLM с агентным рассуждением и динамическим использованием инструментов

xGen-small от Salesforce: революция в корпоративном ИИ с эффективной обработкой длинного контекста

«Абсолютный ноль» от Университета Цинхуа: обучение ИИ без внешних данных